SAEExplainer: Interpretación SAE con optimización por activación
SAEExplainer optimiza la interpretación de características SAE usando preferencias guiadas por activación, reduciendo alucinaciones y mejorando causalidad.
SAEExplainer optimiza la interpretación de características SAE usando preferencias guiadas por activación, reduciendo alucinaciones y mejorando causalidad.